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摘要 : [ 目的 ] 梳理 基于 相关 性 的 跨 模 态 信息 检 索 中 的 基本 策略 和 核心 问题 ,从 提升 检索 效果 的 角度 探讨 偏 最 小 
二 乘法 用 于 特征 子 空间 投影 的 优 劣 。[ 方法 ] 在 Wikipedia 跨 模 态 信息 检索 数据 集 上 , 分 别 采用 LDA fll BOW t 
型 作为 文本 和 图 像 资源 的 特征 表达 方式 ,以 余弦 距离 作为 相似 度 度量 方法 , 利用 最 小 二 乘法 蔡 代 典型 相关 性 分 
析 法 学 习 特 征 子 空间 投影 函数 。[ 结果 】 从 P@K、MAP 和 NDCG 三 个 检索 评价 指标 上 , 对 比分 析 典 型 相关 性 分 


析 、 偏 最 小 二 乘 回归 、 偏 最 小 二 乘 相关 三 种 特征 子 空间 投影 法 对 跨 模 态 信息 检索 结果 的 影响 , 结果 表明 偏 最 小 
二 乘 相 关 法 具有 最 佳 效 果 。[ 局 限 】 偏 最 小 二 乘法 在 处 理 数据 时 假设 数据 之 间 的 关系 是 线性 的 , 数据 基 向 量 之 间 


空间 信息 的 一 致 性 更 强 ， 跨 模 态 信息 检索 结果 更 稳定 。 
关键 词 : 跨 模 态 信 息 检 索 ” 偏 最 小 二 乘法 ” 子 空间 投影 
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是 正 交 关系 ， 因 而 无 法 解决 非 线性 、 非 正 交 问题 。[ 结论 ] 使 用 偏 最 小 二 乘 相 关 法 学 习 的 特征 子 空间 投影 与 原始 
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随 着 多 媒体 技术 的 进步 和 发 展 , 信息 资源 多 元 化 
程度 日 益 加 深 , 推动 了 传统 信息 检索 技术 的 巨大 变革 ， 
传统 的 基于 文本 的 信息 检索 技术 逐步 向 基于 内 容 的 多 
媒体 信息 检索 发 展 。 诸 如 基于 内 容 的 图 像 检 索 趾 、 基 
于 指纹 的 音乐 检索 门 . 基 于 内 容 的 视频 检索 站 等 多 媒体 
信息 检索 研究 日 益 成 熟 ， 出现 了 “以 图 搜 图 "、“ 哼 唱 检 
索 ” 等 相关 商业 应 用 , 一 定 程度 上 解决 了 同形 态 空间 
内 信息 资源 的 检索 问题 。 然 而 , 有 时 检索 系统 会 面临 
如 下 需求 :“ 用 户 有 一 张 鸟 的 照片 , 希望 查找 到 其 相关 
的 文字 介绍 ,以 及 视频 和 音频 片段 ” 该 类 检索 可 以 归 
结 为 “如何 解决 不 同形 态 空间 (文本 、 视 频 、 音 频 、 
像 等 ) 之 间 信 息 资 源 的 相互 检索 ”这 一 问题 。 

目前 , 信息 检索 系统 多 利用 基于 内 容 的 多 媒体 检 
索 技术 , 通过 查找 同形 态 空间 下 的 相关 信息 资源 , 整合 
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这 些 相关 信息 资源 的 目标 形态 空间 信息 , 最终 返回 相 
应 结果 列表 ,例如 “互联 网 以 图 搜 文 "时 ,首先 通过 “以 图 
图 "查找 包含 相似 图 像 的 网 页 ,然后 返回 网 页 中 与 相 
似 图 像 相关 的 文本 信息 。 该 方法 存在 两 个 重要 缺陷 : 无 
法 检索 到 不 包含 图 像 的 网 页 中 的 相关 文本 信息 ; 网 页 
中 与 相似 图 像 相 关 的 文本 信息 并 不 一 定 与 查询 图 像 相 
关 -。 跨 模 态 信息 检索 试图 直接 建立 信息 资源 在 不 同形 态 
空间 内 的 关联 关系 ,以 弥补 上 述 缺 陷 。 

跨 模 态 信息 检索 (也 称 跨 媒体 信息 检索 ) 是 多 媒体 
信息 检索 中 一 个 较 新 的 研究 领域 , 涉及 到 多 媒体 信息 
表达 、 异 构 特征 关联 挖掘 、 子 空间 投影 、 语 义 推理 等 
相关 技术 ,其 通过 建立 信息 在 多 种 形态 之 间 的 映射， 
实现 信息 在 不 同形 态 空间 中 的 表达 转化 ,最 终 支持 跨 
越 信息 资源 形态 差异 ( 异 构 数据 类 型 ) 的 检索 。 本 文通 
过 设计 跨 模 态 信息 检索 实验 ,以 三 种 常用 的 信息 检索 
评价 指标 为 基准 , 探索 了 不 同 的 多 元 统计 分 析 方 法 处 
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理 异 构 特 征 信息 ,进行 特征 子 空 间 投影 的 优点 和 缺 
点 。 本 文 主要 贡献 与 创新 在 于 , 一 方面 梳理 并 归纳 了 
基于 相关 性 的 跨 模 态 信息 研究 的 核心 步骤 和 策略 ， 另 
一 方面 针对 子 空间 投影 步骤 ,提出 了 以 偏 最 小 二 乘法 
挖掘 异 构 特 征 关 联 关 系 的 思路 ,并 通过 实验 结果 证 实 
了 偏 最 小 二 乘法 与 传统 的 典型 相关 性 分 析 法 相 比 , 更 
适用 于 基于 相关 性 的 跨 模 态 信息 检索 框架 。 


2 相关 研究 


2. 多 媒体 信息 处 理 

多 媒体 信息 处 理 技 术 已 经 在 很 多 研究 领域 得 到 广 
泛 应 用 ,如 文献 [4] 将 图 像 局 部 不 变 特 征 聚 类 成 视觉 词 
汇 ， 并 采用 空间 金字 塔 模型 将 图 像 区 域 语义 信息 与 
“ 词 袋 模型 "结合 起 来 , 实现 了 对 图 像 场景 语义 的 分 析 
和 理解 。 文 献 [四 运用 隐 含 狄 列 克 雷 分 配 (Latent 
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人 本 体 技 术 , 通过 基于 关系 的 知识 推理 和 本 体 学 习 ， 
构建 多 媒体 信息 间 的 语义 关联 ， 从 而 衡量 跨 媒体 间 的 
信息 差异 。 文 献 [11] 论 述 了 图 像 和 音频 内 容 表 达 一 致 
性 问题 , 提出 一 种 半 监 督 式 的 相关 性 保持 映射 算法 
(SSCPM), 用 以 挖掘 图 像 和 音频 数据 特征 之 间 的 潜在 
共性 。 文 献 [12-13] 通 过 检索 实验 的 评价 结果 , 分 析 多 
媒体 低层 特征 和 高 层 语义 特征 在 跨 模 态 信息 检索 任务 
上 的 差异 , 并 指出 多 层次 的 特征 融合 更 能 表征 信息 在 
跨 媒体 数据 中 的 共性 。 文 献 [14-15] 分 别提 出 时 空 上 下 
文 语义 机 模型 和 邻近 图 模型 ， 从 信息 资源 的 跨 模 态 相 
关 性 投影 (Cross-Modality Correlation Propagatiom 讨 论 了 
跨 媒体 语义 信息 的 挖掘 方法 ,并 探究 了 文本 与 图 像 信 
息 的 相互 检索 问题 ,这 些 跨 媒体 语义 信息 挖掘 研究 的 主 
要 思路 是 “构建 一 个 同形 语义 子 空间 ,对 不 同 维度 、 不 
同 量 纲 的 特征 数据 进行 空间 投影 ， 从 而 实现 对 跨 模 态 


Dirichlet Allocation) 对 短文 本 进行 建 模 ,， 同 时 考虑 短文 
本 的 特征 稀 踊 性 和 上 下 文 依赖 性 , 从 主题 层次 探讨 了 
短文 本 的 语义 理解 问题 。 文 献 [6] 将 层次 狄 列 克 雷 过 程 
(Hierarchical Dirichlet Process) 运 用 在 搜索 引擎 的 用 户 
日 志 分 析 上 , 通过 对 查询 词 中 的 动词 及 与 动词 具有 依 
存 关系 的 名 词 进 行 聚 类 ,进而 解决 了 用 户 查 询 意 图 的 
语义 理解 问题 。 文 献 [2] 在 信号 频谱 分 析 的 基础 上 , 使 
用 快速 组 合 喻 希 (Fast Combinatorial Hashing) 算 法 对 音 
乐 进行 信息 建 模 , 实现 了 基于 “音乐 指纹 ”的 音频 信息 
检索 。 这 些 多 媒体 信息 处 理 技术 为 同 构 信息 的 检索 、 
推荐 等 应 用 提供 了 可 能 ， 且 一 定 程度 上 能 够 表征 信息 
资源 的 语义 内 涵 。 
22 ” 跨 媒 体 语义 信息 挖掘 

然而 , 多 媒体 信息 处 理 技术 未 能 在 信息 资源 的 异 
构 特 征 之 间架 起 桥梁 , 因此 一 些 研 究 者 在 此 基础 上 探 
索性 地 研究 了 跨 媒体 信息 之 间 的 内 在 联系 。 文 献 [7] 指 
出 同一 信息 资源 在 不 同形 态 下 的 特征 之 间 存 在 某 种 洪 
在 联系 , 并 利用 典型 相关 性 分 析 法 对 这 种 异 构 数 据 ( 音 
频 与 图 像 ) 之 间 的 关联 关系 进行 建 模 ,从 而 将 不 同形 态 
的 信息 资源 转化 到 同一 子 空间 中 , 进而 实现 了 音频 与 
图 像 之 间 的 跨 媒体 信息 衡量 。 文 献 [8] 提 出 运用 奇异 值 
分 解 和 隐 性 语义 索引 对 跨 媒体 信息 进行 语义 关系 建 模 
的 思路 ,并 通过 跨 媒 体检 索 试 验 对 比分 析 奇 异 值 分 
解 、 隐 性 语义 索引 和 典型 相关 性 分 析 在 异 构 特 征 关系 
挖掘 上 的 优 劣 ,文献 [9-10] 在 跨 媒体 信息 处 理 过 程 中 引 
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信息 的 关系 度量 ,以 服务 跨 模 态 信息 检索 研究 "。 如 何 
学 习 到 一 个 既 保持 多 模 态 信息 个 体 差 异 特性 又 融合 多 
模 态 信息 共性 的 子 空间 是 该 类 研究 的 核心 问题 。 当 前 的 
同形 特征 子 空间 构建 可 归 为 以 下 两 类 方法 : 

(1) 基于 相关 性 的 特征 子 空间 投影 : 该 方法 依据 
最 大 相关 性 策略 ， 多 采用 典型 相关 性 分 析 法 ,挖掘 不 
同 模 态 信息 低层 特征 之 间 的 潜在 相关 关系 , 学习 最 优 
子 空间 投影 和 矩阵， 以 实现 异 构 特征 空间 转换 。 

Q) 基于 高 层 语义 的 特征 子 空间 学 习 : 该 方法 多 
利用 机 器 学 习 方法 , 通过 分 类 算法 直接 在 语义 层次 上 
为 异 构 数据 构建 同形 语义 特征 空间 , 并 基于 该 空间 实 
现 异 构 数 据 的 相似 度 度量 。 

其 中 第 二 类 方法 严重 依靠 多 类 分 类 算法 的 效果 。 
然而 ， 随 着 分 类 类 别 的 增加 ， 多 类 分 类 效果 往往 呈 递 
减 趋势 ,这 限制 了 可 构建 的 语义 特征 空间 的 维度 ,本 
质 上 降低 了 检索 对 象 之 间 的 区 分 度 。 其 次 , 该 类 方法 
F, 若 拓 展 语义 特征 空间 的 维度 , 则 需 重 新 学 习 分 类 
模型 \ 调 优 参 数 ， 是 一 种 参数 相关 的 解决 方法 , 难以 适 
用 于 实际 的 检索 应 用 ,因此 本 文 仅 探讨 “基于 相关 性 
的 特征 子 空间 投影 ”的 跨 模 态 信息 检索 优化 问题 。 


3 基于 相关 性 的 跨 模 态 信息 检索 


笔者 认为 基于 相关 性 的 跨 模 态 信息 检索 系统 框架 
主要 由 多 模 态 信息 表达 、 特 征 子 空间 投影 和 相似 度 度 
量 排 序 三 个 部 分 组 成 。 


3.1 多 模 态 信息 特征 表达 

多 模 态 信息 表达 主要 研究 同形 态 下 信息 资源 如 何 
编码 以 便于 有 效 区 别 类 内 的 个 体 差异 。 形 式 上 可 直观 地 
认为 , 多 模 态 信息 表达 就 是 利用 数学 向 量 从 不 同 角度 
刻画 信息 资源 本 身 ， 其 不 同 角度 体现 在 同一 信息 资源 
可 使 用 不 同 维度 、 不 同 数值 的 向 量 表示 。 信息 资源 在 某 
一 特定 形态 下 的 特征 表达 , 可 用 如 下 形式 化 定义 描述 : 

对 于 给 定 的 信息 资源 集合 S={S,S，…Sk} ， 找 到 
一 个 m 维 的 向 量 空间 L, 使 得 每 个 信息 资源 Si 在 该 空 
间 中 都 可 用 某 一 向 量 Si={Ls ,L$ ses DS } 表示 。 本 文 使 
JH LDA 主题 空间 和 BOW 视觉 词 袋 空间 分 别 作为 信息 
资源 的 文本 特征 表达 和 视觉 特征 表达 。 
3.2 ”基于 相关 性 的 特征 子 空间 投影 

寺 征 子 空间 投影 是 指 在 不 同形 态 特 征 空间 下 , 分 
析 信 息 资源 异 构 特征 之 间 的 潜在 联系 ,从 而 将 异 构 数 
据 投 影 到 同一 特征 子 空间 内 ,以 解决 特征 异 构 的 问 
题 。 基 于 相关 性 的 特征 子 空 间 投 影 是 挖掘 不 同 模 态 信 
息 低 层 特征 之 间 的 潜在 相关 关系 , 学 习 最 优 子 空间 投 
影 矩 阵 ， 以 实现 异 构 特 征 空间 转换 ， 其 核心 在 于 将 不 
同形 态 的 信息 资源 ,从 异 构 特 征 空间 投影 到 同形 特征 
空间 中 , 以 达到 可 以 直接 度量 它们 之 间 关 系 的 目的 。 
该 过 程 可 作 如 下 形式 化 描述 : 

对 于 给 定 的 信息 资源 集合 S={S1,S,,…,Sk} ,Si 在 
m 维 特征 空间 LL 中 的 向 量 表达 为 $;={Ls ,LS ,…, DS). 
其 在 n 维特 征 空间 G 中 的 向 量 表达 为 Si= 
{Gs ,Gs ，…, G8 } ,通过 某 种 策略 F ( 子 空间 相关 性 最 
大 化 ) 或 算法 ,学习 到 空间 投影 关系 PL 、a 及 t 维特 
征 子 空间 O, 使 得 pL(Ls LS, D$) (0$, OS,» 
“…,Os ) 


Pa (Gs, > GS,» 1 GS, ) (0s ,08,…,08), 


9L. 9c 称 为 空间 投影 函数 ,特征 子 空间 O 称 为 最 大 
相关 子 空间 。 其 几何 意义 如 图 1 所 示 : 
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图 1 基于 相关 性 的 特征 子 空间 投影 示意 图 
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3.3 ”基于 特征 子 空间 的 检索 排序 算法 

基于 相关 性 的 跨 模 态 信息 检索 实质 上 就 是 在 同形 
特征 子 空间 O 中 , 采用 某 种 距离 计算 方法 , 度量 查询 
言 息 资 源 与 被 检索 信息 资源 之 间 的 相关 性 ,并 按照 相 
关 性 大 小 排序 。 该 算法 伪 代 码 如 下 所 示 : 

S, € PL(S) 

for Sj in S do 

Si, €- P6 (S;) 

Score(SuSi)=Dis(Sto Sjo) 

end for 

Sort S on Score(S, S;) 


其 中 $i 为 任意 查询 ,其 在 特征 空间 工 中 的 向 量 表 
达 为 S.={Ls , Ls ，,…, Ls) o S 为 被 检索 的 资源 集合 ， 
S; eS, H Si 在 特征 空间 G 中 表达 。 Dis 为 距离 计算 公 
式 ，Score(St, Sj) 表 示 查 询 $1 与 记录 S; 的 相关 性 得 分 。 
相似 度 度量 排序 的 其 他 策略 可 直接 引用 机 器 学 习 中 的 
距离 计算 方法 , 具体 可 参见 文献 [16]。 

3.4” 偏 最 小 二 乘法 的 应 用 分 析 

本 文 认为 基于 相关 性 的 跨 模 态 信 息 检索 差异 主要 
在 于 上 述 三 个 核心 步 又 的 不 同 ， 即 相同 步骤 下 采用 不 
同 的 策略 是 导致 检索 效果 差异 的 主要 原因 ， 因 此 对 于 
任意 一 个 步骤 的 改进 都 将 有 利于 提升 跨 模 态 信息 检索 
的 效果 。 特 征 子 空间 投影 是 基于 相关 性 的 跨 模 态 信息 
丛 索 研究 最 核心 的 步骤 ,其 是 现 阶段 融合 不 同 量 纲 、 
不 同 维度 特征 数据 的 唯一 途径 。 目 前 相关 研究 [一 
多 采用 典型 相关 性 分 析 法 寻找 同一 信息 在 不 同形 态 下 
的 最 大 相关 子 投影 空间 ,作为 该 步骤 的 执行 策略 和 数 
学 求解 方法 。 然 而 , 典型 相关 性 分 析 作 为 一 种 多 元 统 
计 分 析 方 法 , 其 利用 线性 回归 表示 子 投影 之 间 的 关系 ， 
存在 一 定 的 缺陷 。 

偏 最 小 二 乘法 作为 第 二 代 多 元 回归 分 析 法 , 同时 
兼顾 了 多 元 线性 回归 、 主 成 分 分 析 、 典 型 相关 性 分 析 
的 优点 , 已 被 广泛 应 用 于 经 济 学 、 机 械 控制 技术 、 社 
会 调查 研究 、 计 量化 学 、 神 经 医学 成 像 等 领域 。 从 理 
论 上 看 , 偏 最 小 二 乘法 不 仅 能 够 实现 典型 相关 性 分 析 
的 功能 , 还 具备 去 噪音 、 突 出 主要 潜 变 量 等 其 他 优点 ， 
因此 本 研究 认为 将 偏 最 小 二 乘法 引入 路 模 态 信息 检索 
框架 , 将 有 利于 优化 基于 相关 性 的 跨 模 态 信息 检索 的 
结果 。 偏 最 小 二 乘法 主要 有 偏 最 小 二 乘 回归 (PLSR) 和 
偏 最 小 二 乘 相 关 (PLSC) 两 种 ,前 者 多 用 于 预测 , 后 者 
常用 于 潜 变 量 关联 挖掘 ， 具 体 的 数学 理论 和 推导 可 参 
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见 文献 [17]。 


说 明 , 其 中 特征 空间 L、G、0O 维度 的 选择 对 实验 结果 


基于 偏 最 小 二 乘法 的 跨 模 态 信 息 检索 的 实质 是 利 
用 偏 最 小 二 乘法 (对 应 于 3.2 节 的 策略 F 和 4.1 节 的 特 
征 子 空 间 投影 步 又) 求解 信息 从 原始 特征 空间 L、G 到 
寺 征 子 空间 O WRIT OL, Po, 在 保持 原始 特征 
之 间 关 联 性 最 大 的 条 件 下 , 突出 主 成 分 的 作用 ,抑制 
数据 中 的 噪音 影响 。 


4 实 验 


为 探讨 偏 最 小 二 乘法 在 跨 模 态 信息 检索 框架 中 的 
应 用 , 本 研究 设计 了 相关 实验 。 
4.1 实验 数据 及 相关 过 程 

鉴于 语义 技术 在 文本 处 理 和 图 像 分 析 上 的 成 熟 应 
JH, 选取 文本 、 图 像 作为 跨 模 态 信息 检索 的 原始 信息 ， 
以 “文本 搜 图 像 ~ 和 “图 像 搜 文本 ”两 类 任务 衡量 实验 的 
最 终结 果 。 实 验 选 用 Wikipedia 跨 模 态 信息 检索 数据 
集 02， 该 数据 集 共 包含 2 866 篇 Wikipedia 文档 和 10 
个 主题 ， 每 篇 文档 都 由 一 个 “文本 -网 像 "对 组 成 ， 且 属 
于 某 一 主题 ; 其 中 2 173 篇 文档 为 训练 集 TRAIN, 用 
于 训练 空间 投影 函数 py . og 和 特征 子 空间 O; 另外 
693 篇 文档 为 测试 集 TEST, 用 于 评价 跨 模 态 信息 检索 
排序 算法 的 结果 , 数据 分 布 如 表 1 所 示 : 

dl 数据 类 型 分 布 表 


编号 主题 训练 集 测试 集 总 文档 数 
#0 艺术 与 建筑 138 34 172 
#1 生物 学 272 88 360 
#2 地 理 与 位 置 244 96 340 
#3 历史 248 85 333 
#4 文学 与 戏剧 202 65 267 
#5 媒体 178 58 236 
#6 音乐 186 51 237 
#7 皇室 与 贵族 144 41 185 
#8 KARN 214 71 285 
#9 战争 347 104 451 


依据 第 3 节 介 绍 的 基于 相关 性 的 跨 模 态 信息 检索 
主体 框架 ， 分 别 对 本 实验 的 多 模 态 信息 表达 、 特 征 子 
空间 投影 和 相似 度 度量 排序 三 个 核心 组 成 部 分 作 如 下 


http ://radimrehurek.com/gensim/. 
@http://www.vlfeat.org/. 
Ghttp://scikit-learn.org/stable/. 
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影响 较 小 中 

(1) 多 模 态 信息 表达 : 对 于 文档 的 文本 信息 , 本 实 
验 运用 gensim 工具 包 抽 取 其 在 LDA 主题 空间 中 的 特 
征 , 构建 特征 空间 L, 特征 空间 L 的 维度 m=10; 运用 
VLFeat^ 机 器 视觉 库 计算 其 在 BOW 图 像 语 义 空间 中 的 
特征 , 构建 特征 空间 G, 特征 空间 G 的 维度 n=128。 

(2) 特征 子 空间 投影 : 设置 三 组 实验 , 分 别 运 用 
scikit-learm 工具 包 的 CCA,PLSR,PLSC 三 种 算法 , 在 
训练 集 数据 上 学 习 空 间 投影 函数 gr 、?a 及 文档 Si 在 
特征 子 空间 O 中 的 向 量 表达 S(O}, 03 ,…,08 ), 特 
征 子 空间 维度 t=9。 

(3) 相似 度 度量 排序 : 以 向 量 余弦 相似 度 为 相关 
性 的 度量 公式 ， 则 文档 $1 与 文档 $j 的 相关 性 得 分 如 下 : 


—T 
Sto ‘Sjo 


Score(S S;) = ——————— 
I ISa lII S;o l 


4.0 ”实验 结果 与 分 析 

实验 最 终 在 测试 集 上 执行 跨 模 态 信息 检索 , 包括 
“文本 搜 图 像 " 和 “图 像 搜 文本 ”两 个 任务 , 检索 相关 性 
判断 依据 为 主题 相关 ， 即 检索 和 查询 记录 主题 是 否 一 
致 。 检 索 结 果 采 用 P@K(Precision at K), MAP(Mean 
Average Precision)fli NDCG (Normalized Discounted 
Cumulative Gain) 三 种 指标 进行 评价 ， 从 多 个 角度 查看 
各 种 方法 对 检索 结果 的 影响 , 体现 检索 结果 优化 的 普 

实验 对 比分 析 了 以 CCA( 典 型 相关 性 分 析 )、 
PLSR( 偏 最 小 二 乘 回归 ) 和 PLSC( 偏 最 小 二 乘 相 关 ) 作 
为 特征 子 空间 学 习 算法 时 ,“ 文 本 搜 图 像 ” 和 "图像 搜 文 
本 ”两 个 跨 模 态 信息 检索 任务 的 P@K(K=5,10,15,20， 
30) 值 ， 如 图 2 所 示 。 可 以 看 到 PLSC 方法 在 两 类 任务 
中 均 获 得 了 最 优 表现 ;“ 文 本 搜 图 像 ” 任 务 中 POK ME 
K 的 增 大 呈 递 减 的 趋势 ， 日 CCA 表示 的 曲线 的 斜率 较 
K, 而 基于 偏 最 小 二 乘法 (PLSR、PLSC) 的 曲线 的 斜率 
RFR, 这 表明 基于 偏 最 小 二 乘法 所 学 习 的 特征 子 空 
间 投 影 较 CCA 方法 更 稳定 ;“ 图 像 搜 文本 ”任务 中 三 条 
曲线 的 斜率 都 很 平缓 ,与 “文本 搜 图 像 " 任 务 的 表现 过 
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== CCA =E= PLSR =+ PLSC 


P@5 P@I0 P@I5 P@20 P930 
(a) 文本 搜 图 像 
—— CCA -H-PLSR = PLSC 


P@5 P@I0 P@I5  P@20 P@30 
(b) 图 像 搜 文本 


图 2 三 种 方法 的 PQK 对 比 
5r, 这 说 明文 本 信息 在 特征 子 空间 中 的 投影 是 离散 
的 、 均 匀 的 分 布 , 而 图 像 信息 在 特征 子 空间 中 的 投影 
旦 明显 的 按 主题 聚 类 特征 ， 如 图 3 所 示 : 


Image pes 
1 


图 3 特征 子 空间 数据 投影 分 布 示意 图 


Text Space Image Space Text Space 


^ Projection/Space 
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如 图 4 所 示 ， 比 较 分 析 三 组 实验 在 两 个 任务 上 的 
NDCG 的 得 分 可 知 ， 从 各 个 主题 的 NDCG 得 分 看 , 在 
不 同 的 主题 、 不 同 的 任务 中 三 种 方法 的 效果 各 有 优 劣 ; 
从 总 体 NDCG 得 分 看 , PLSC 在 两 个 任务 中 均 获 得 最 
优 表现 (NDCG 分 别 为 0.2378 和 0.1982, 平均 NDCG 
为 0.2179), 该 得 分 相 较 于 CCA 提高 了 70.7%。 同样 通 
过 双 尾 成 对 T 检验 可 知 ， 两 个 任务 上 的 效果 提升 具有 
统计 显著 性 意义 (p1=0.024、p2=0.036)。PLSR 在 “文本 
搜 图 像 ” 任 务 上 效果 与 CCA 方法 基本 相同 , 而 在 “图 像 
搜 文本 ”任务 中 效果 较 CCA 方法 好 。 


0.60 
0.40 
0.20 


0.00 
#0 #1 #2 #3 #4 #5 #6 #7 #8 #9 sum 


CCA PLSR MPLSC 
(a) 文本 搜 图 像 


0.40 
0.30 
0.20 
0.10 
0.00 
#0 #1 #2 #3 #4 #5 #6 #7 #8 #9 sum 


ECCA  HPLSR PLSC 
(b) 图 像 搜 文本 


图 4 NDCG ^4 4 MU KE 


综合 考虑 PQ@K MAP 和 NDCG 三 个 评价 指标 , 偏 


三 组 检索 实验 的 MAP 得 分 结果 如 表 2 所 示 , 可 
以 看 到 PLSC 方法 在 两 类 任务 中 都 得 到 了 最 佳 效果 。 
与 CCA 方法 相 比 较 ,“ 文 本 搜 图 像 "任务 上 效果 提高 了 
19.1%,“ 图 像 搜 文本 ”任务 上 效果 提高 了 36.796, 平均 
效果 提高 了 28.2%。 通过 双 尾 成 对 了 检验 可 知 ,两 个 任 
务 上 的 效果 提升 都 具有 显著 性 (p1=0.012、p2=0.061)。 
表 2 MAP 得 分 表 


方法 文本 搜 图 像 ” 图 像 搜 文 本 平均 

CCA 0.1645 0.1787 0.1716 
PLSR 0.1412 0.1776 0.1594 
PLSC 0.1958 0.2443 0.2201 


最 小 二 乘 相关 法 在 三 种 评价 指标 上 效果 均 优 于 典型 相 
关 性 分 析 法 ,而 偏 最 小 二 乘 回归 法 则 表现 出 不 稳定 的 
状态 , 由 此 认为 偏 最 小 二 乘 相关 法 更 适用 于 基于 相关 
性 的 跨 模 态 信息 检索 理论 框架 。 与 典型 相关 性 分 析 法 
相 比 , 使 用 偏 最 小 二 乘 相关 法 学 习 的 特征 子 空间 投影 
与 原始 空间 信息 的 一 致 性 更 强 ， 跨 模 态 信息 检索 结 


5 结 i& 


基于 内 容 的 多 媒体 信息 检索 研究 日 益 成 熟 “ 以 
搜 图 "“ 哼 唱 检索 ”等 应 用 解决 了 同形 态 空 间 内 信息 资 
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的 检索 问题 , 但 是 难以 突破 异 构 数 据 类 型 的 限 币 


c 


o 


跨 模 态 信息 检索 研究 为 该 问题 提供 了 一 种 新 的 解决 思 
路 , 然而 当前 基于 相关 性 的 跨 模 态 信 息 检 索 研 究 多 运 


陷 
自 


PA 


用 典型 相关 性 分 析 法 构建 特征 子 空 间 , 存在 一 定 的 缺 
。 本 文 将 偏 最 小 二 乘法 引入 基于 相关 性 的 跨 模 态 信 
检索 框架 , 并 设计 相应 的 检索 实验 , 实验 结果 表明 


偏 


对 这 
化 ， 
图 
小 
关 
法 
性 


pal 


最 小 二 乘 相 关 算 法 较 好 地 优化 了 检索 结果 。 

本 文选 取 文 本 和 图 像 数据 , 探讨 了 偏 最 小 二 乘法 
文 两 种 不 同 模 态 信息 资源 之 间 跨 媒体 相关 性 的 优 
该 方法 同样 适用 于 其 他 模 态 的 信息 资源 (如 音频 、 
像 、 视 频 )， 以 及 路 语 言 信 息 检 索 研 究 。 本 文 的 不 足 
处 在 于 偏 最 小 二 乘法 在 处 理 数据 时 假设 数据 之 间 的 
系 是 线性 的 , 数据 基 向 量 之 间 是 正 交 关系 ， 因 而 无 
解决 非 线 性 、 非 正 交 问 题 。 后 续 研 究 将 聚焦 于 非 线 
寺 征 子 空间 学 习 ， 以 弥补 偏 最 小 二 乘法 的 线性 和 正 
交 假 设 所 导致 的 不 足 。 
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A Study on Correlation-based Cross-Modal Information Retrieval 


Ding Heng! Lu Wei"? 
(School of Information Management, Wuhan University, Wuhan 430072,China) 
"(Center for the Studies of Information Resources, Wuhan University, Wuhan 430072,China) 


Abstract: [Objective] Summarize the fundamental strategies and core issues in Cross-Modal Information Retrieval 
(CMIR) based on correlation, and do research about the pros and cons of using partial least squares in feature subspace 
projection in order to improve retrieval effect. [Methods] Based on Wikipedia CMIR dataset, LDA and BOW models 
are used as a characteristic expression of text and image resources, cosine distance as the similarity measure, and the 
least squares method 1s used to learn subspace projection function replacing canonical correlation analysis method. 
[Results] Using comparative analysis of the influence of three features subspace projection methods named canonical 
correlation analysis, partial least squares regression, partial least squares correlation on CMIR results according to three 
retrieval evaluation indicators that are P@K, MAP and NDCG, and the results show that partial least squares correlation 
obtains the best results. [Limitations] In dealing with data, partial least squares method assumes a linear relationship 
between the data and an orthogonal relationship between the data base vectors, therefore the non-linear, non-orthogonal 
problem can not be solved. [Conclusions] Feature subspace projection learning by using partial least squares 
correlation is more consistent with original spatial information, and CMIR results are more stable. 
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